Serveur d'exploration sur la recherche en informatique en Lorraine

Attention, ce site est en cours de développement !
Attention, site généré par des moyens informatiques à partir de corpus bruts.
Les informations ne sont donc pas validées.

Communication et apprentissage par renforcement pour une équipe d'agents

Identifieur interne : 006792 ( Main/Exploration ); précédent : 006791; suivant : 006793

Communication et apprentissage par renforcement pour une équipe d'agents

Auteurs : Daniel Szer ; François Charpillet

Source :

RBID : CRIN:szer04c

English descriptors

Abstract

Nous présentons un nouvel algorithme d'apprentissage par renforcement pour des systèmes multi-agents coopératifs. Le problème de contrôle est formalisé comme un processus de décision markovien que nous cherchons à résoudre de manière décentralisée. Pour cela, nous proposons une variante du Q-learning avec communication, à savoir un mécanisme de notification réciproque. Nous allons introduire le problème de coopération multi-agents et poser un critère d'optimalité pour la solution souhaitée. Nous allons ensuite présenter l'algorithme de notification réciproque, prouver sa convergence et étudier des variantes de l'algorithme qui permettent des stratégies de communication plus flexibles. Nous conclurons avec les performances de l'algorithme sur un exemple d'apprentissage précis.


Affiliations:


Links toward previous steps (curation, corpus...)


Le document en format XML

<record>
<TEI>
<teiHeader>
<fileDesc>
<titleStmt>
<title xml:lang="en" wicri:score="82">Communication et apprentissage par renforcement pour une équipe d'agents</title>
</titleStmt>
<publicationStmt>
<idno type="RBID">CRIN:szer04c</idno>
<date when="2004" year="2004">2004</date>
<idno type="wicri:Area/Crin/Corpus">003D80</idno>
<idno type="wicri:Area/Crin/Curation">003D80</idno>
<idno type="wicri:explorRef" wicri:stream="Crin" wicri:step="Curation">003D80</idno>
<idno type="wicri:Area/Crin/Checkpoint">000620</idno>
<idno type="wicri:explorRef" wicri:stream="Crin" wicri:step="Checkpoint">000620</idno>
<idno type="wicri:Area/Main/Merge">006A95</idno>
<idno type="wicri:Area/Main/Curation">006792</idno>
<idno type="wicri:Area/Main/Exploration">006792</idno>
</publicationStmt>
<sourceDesc>
<biblStruct>
<analytic>
<title xml:lang="en">Communication et apprentissage par renforcement pour une équipe d'agents</title>
<author>
<name sortKey="Szer, Daniel" sort="Szer, Daniel" uniqKey="Szer D" first="Daniel" last="Szer">Daniel Szer</name>
</author>
<author>
<name sortKey="Charpillet, Francois" sort="Charpillet, Francois" uniqKey="Charpillet F" first="François" last="Charpillet">François Charpillet</name>
</author>
</analytic>
</biblStruct>
</sourceDesc>
</fileDesc>
<profileDesc>
<textClass>
<keywords scheme="KwdEn" xml:lang="en">
<term>mdp</term>
<term>multiagent systems</term>
<term>reinforcement learning</term>
</keywords>
</textClass>
</profileDesc>
</teiHeader>
<front>
<div type="abstract" xml:lang="fr" wicri:score="-519">Nous présentons un nouvel algorithme d'apprentissage par renforcement pour des systèmes multi-agents coopératifs. Le problème de contrôle est formalisé comme un processus de décision markovien que nous cherchons à résoudre de manière décentralisée. Pour cela, nous proposons une variante du Q-learning avec communication, à savoir un mécanisme de notification réciproque. Nous allons introduire le problème de coopération multi-agents et poser un critère d'optimalité pour la solution souhaitée. Nous allons ensuite présenter l'algorithme de notification réciproque, prouver sa convergence et étudier des variantes de l'algorithme qui permettent des stratégies de communication plus flexibles. Nous conclurons avec les performances de l'algorithme sur un exemple d'apprentissage précis.</div>
</front>
</TEI>
<affiliations>
<list></list>
<tree>
<noCountry>
<name sortKey="Charpillet, Francois" sort="Charpillet, Francois" uniqKey="Charpillet F" first="François" last="Charpillet">François Charpillet</name>
<name sortKey="Szer, Daniel" sort="Szer, Daniel" uniqKey="Szer D" first="Daniel" last="Szer">Daniel Szer</name>
</noCountry>
</tree>
</affiliations>
</record>

Pour manipuler ce document sous Unix (Dilib)

EXPLOR_STEP=$WICRI_ROOT/Wicri/Lorraine/explor/InforLorV4/Data/Main/Exploration
HfdSelect -h $EXPLOR_STEP/biblio.hfd -nk 006792 | SxmlIndent | more

Ou

HfdSelect -h $EXPLOR_AREA/Data/Main/Exploration/biblio.hfd -nk 006792 | SxmlIndent | more

Pour mettre un lien sur cette page dans le réseau Wicri

{{Explor lien
   |wiki=    Wicri/Lorraine
   |area=    InforLorV4
   |flux=    Main
   |étape=   Exploration
   |type=    RBID
   |clé=     CRIN:szer04c
   |texte=   Communication et apprentissage par renforcement pour une équipe d'agents
}}

Wicri

This area was generated with Dilib version V0.6.33.
Data generation: Mon Jun 10 21:56:28 2019. Site generation: Fri Feb 25 15:29:27 2022